روشی کارا برای کاوش مجموعه اقلام پرتکرار در تحلیل داده های سبد خرید

نویسندگان

s.m. fakhrahmad

m.h. sadredini

m. zolghadri jahromi

چکیده

کشف الگوهای پنهان و ارزشمند از درون حجم وسیعی از داده­های خام، اخیراً توجه بسیاری از محققان را به خود جلب کرده­است. اغلب روشهای کاوش قوانین تداعی در مرحله اول کار خود کلیه اقلام پرتکرار (ساده و ترکیبی) را از بین تمام اقلام موجود در داده­ها جستجو می­کنند که این امر نیازمند به خواندن مکرر کل داده­ها از دیسک است. در مسائل داده­کاوی، حجم پایگاه داده­های تراکنش معمولاً آنقدر زیاد است که قابل بار شدن در حافظه اصلی نمی­باشند. اما در برخی موارد مانند پایگاه داده­های تحلیلی مربوط به سبدهای خرید یک فروشگاه، با توجه به تعداد نسبتا زیاد اقلام ممکن (کل اجناس فروشگاه) و نیز محدودیت نسبی اندازه تراکنش­ها (اقلام خریداری شده در هر سبد)، احتمال رخداد یک قلم داده (خریداری شدن یک کالای خاص) پایین است. در این مقاله با بهره­گیری از این ویژگی، روشی کارا برای کاوش اقلام پرتکرار در مجموعه داده­هایی از این قبیل ارائه می­دهیم. در روش پیشنهادی، داده­ها تنها یک بار از دیسک خوانده می­شوند و بعد از آن به یک ساختار رمز شده و خلاصه تبدیل می­گردند، بطوریکه اولاً قابل نگهداری در حافظه می­باشند و ثانیاً با توجه به ساختار خاصی که دارند، عملیات شمارش به سریع­ترین نحو ممکن انجام می­گردد و زمان شمارش دفعات تکرار اقلام در هر مرحله کمتر از مرحله قبل می­شود. پس از ارائه الگوریتم، کارایی آن را با استفاده از دو مجموعه از داده­های ساختگی و واقعی ارزیابی کرده و با چند روش کارا که تاکنون ارائه شده­اند، مقایسه می­کنیم.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

روشی کارا برای کاوش مجموعه اقلام پرتکرار در تحلیل داده‌های سبد خرید

Discovery of hidden and valuable knowledge from large data warehouses is an important research area and has attracted the attention of many researchers in recent years. Most of Association Rule Mining (ARM) algorithms start by searching for frequent itemsets by scanning the whole database repeatedly and enumerating the occurrences of each candidate itemset. In data mining problems, the size of ...

متن کامل

تجزیۀ نامنفی ماتریسی: روشی برای تحلیل داده های نامنفی

اخیراً روش جدیدی با نام تجزیۀ نامنفی ماتریسی برای نمایش خطی داده های نامنفی پیشنهاد شده است که علاوه بر کاهش تعداد داده ها، محدودیت روش های کلاسیک را ندارد. در این روش، ماتریس بزرگِ متناظر با  داده های نامنفی به دو ماتریس نامنفی کوچک تجزیه می شود. در این مقاله، ابتدا روش های کلاسیک را مرور می کنیم. سپس تجزیۀ نامنفی ماتریسی با نسخه های مختلف آن معرفی و مسائل مهم داده کاوی مانند رده بندی و خوشه بند...

متن کامل

ارائه روشی کارا برای تکرار داده ها در گریدهای داده

گرید داده یک محیط توزیع شده است که با کاربردهای داده متمرکز با حجم بالا سروکار دارد. تکرار داده یکی از تکنیک های کلیدی بهینه سازی برای کاهش تأخیر دستیابی و مدیریت داده های حجیم از طریق ذخیره کردن هوشمندانه کپی های داده است. اگر چه تکرار داده از تکنیک های کلیدی است اما مسئله ی انتخاب محل های مناسب برای قرارگیری تکرارها یعنی مکان یابی تکرار در گرید داده هنوز به صورت وسیعی بررسی نشده است. الگوریتم...

15 صفحه اول

روشی جدید در تعیین ورشکستگی با استفاده از تحلیل پوششی داده ها و تئوری مجموعه های راف فازی

در شرایط متغیر اقتصادی و نوسانات شدید مالی در محیط های تجاری، وجود الگوهایی برای پیش بینی عملکرد مالی شرکتها از اهمیت بسزایی برخوردار است. یکی از این موارد پیش بینی وقوع بحران مالی و به عبارت دیگر ورشکستگی است. تحلیل پوششی داده ها (DEA) یک ابزار قدرتمند در اختیار مدیران است که عملکرد شرکت خود را در فعالیت های تجاری محک بزنند. مدلهای مرسوم تحلیل پوششی داده ها ارزیابی کارایی نسبی واحدهای تصمیم گی...

متن کامل

بهبود عملکرد واحدهای تصمیم‌گیرنده کارا با استفاده از روش تقاطع ابرصفحه‌های سازای مجموعه امکان تولید در تحلیل پوششی داده ها

تحلیل پوششی داده ها (DEA) یک تخمین‌گر است. این تخمین‌گر سعی می کند که یک ارتباط بین ورودی های متعدد و خروجی های متعدد و همچنین تکنولوژی تولید را تخمین بزند. DEA واحدهای تصمیم گیرنده (DMU) را به دو بخش واحدهای کارا و واحدهای ناکارا تقسیم بندی می‌کند. در این صورت واحدهای کارا مرجعی برای واحدهای ناکارا خواهد بود. در مدل‌های سنتیDEA بهبود کارایی تنها برای واحدهای ناکارا صورت می گیرد و واحدهای کارا ...

متن کامل

تجزیۀ نامنفی ماتریسی: روشی برای تحلیل داده های نامنفی

اخیراً روش جدیدی با نام تجزیۀ نامنفی ماتریسی برای نمایش خطی داده های نامنفی پیشنهاد شده است که علاوه بر کاهش تعداد داده ها، محدودیت روش های کلاسیک را ندارد. در این روش، ماتریس بزرگِ متناظر با  داده های نامنفی به دو ماتریس نامنفی کوچک تجزیه می شود. در این مقاله، ابتدا روش های کلاسیک را مرور می کنیم. سپس تجزیۀ نامنفی ماتریسی با نسخه های مختلف آن معرفی و مسائل مهم داده کاوی مانند رده بندی و خوشه بند...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید


عنوان ژورنال:
بین المللی مهندسی صنایع و مدیریت تولید

جلد ۱۹، شماره ۷، صفحات ۶۵-۷۴

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023